UNICEF [Link]

  1. 世界では、六人に一人(3億5600万人)の子どもたちが「極度にまずしい」暮らしをしています。

どのようなデータから、このようなことがわかるのでしょうか。まずは、極度の貧困とは、どのように定義しているのでしょうか。

準備

Step 1. (R に機能を付け加える)パッケージのインストール(最初だけ)

install.packages("tidyverse")
install.packages("WDI")

Step 2. パッケージを使えるように読み込みます。

library(tidyverse)
── Attaching core tidyverse packages ──────────────── tidyverse 2.0.0 ──
✔ dplyr     1.1.3     ✔ readr     2.1.4
✔ forcats   1.0.0     ✔ stringr   1.5.0
✔ ggplot2   3.4.4     ✔ tibble    3.2.1
✔ lubridate 1.9.3     ✔ tidyr     1.3.0
✔ purrr     1.0.2     ── Conflicts ────────────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag()    masks stats::lag()
ℹ Use the ]8;;http://conflicted.r-lib.org/conflicted package]8;; to force all conflicts to become errors
library(WDI)

Step 3. データを保存するための data という名前のディレクトリ(フォルダー)を作成します。(最初だけ)

dir.create("data")
Warning: 'data' already exists

Step 4. エラーが生じた時に、調べやすいので、‘システム言語(System Language)’ を英語にしておきます。(最初だけ)

Sys.setenv(LANG = "en")

Step 5. データを読み込みます。WDI パッケージをつかうと、簡単に、データを読み込むことができます。わかりやすい名前(gdp、gdppcap)をつけ、人口(pop)も読み込んでおきます。extra = TRUE としておくと、使い情報を一緒に読み込むことができます。(すでに、data に、gdppcap.csv というのがあるときは、Step 5, Step 6 はスキップして、Step 7 だけを実行します。)

df_gdppcap <- WDI(indicator = c(gdp = "NY.GDP.MKTP.PP.KD", pop = "SP.POP.TOTL", gdppcap = "NY.GDP.PCAP.PP.KD"), extra = TRUE)

Step 6. 何度も読み込むのは、時間もかかりますから、最初に作った、data という、ディレクトリー(フォルダ)に保存しておきます。(すでに、data に、gdppcap.csv というのがあるときは、Step 5, Step 6 はスキップして、Step 7 だけを実行します。)

write_csv(df_gdppcap, "data/gdppcap.csv")

Step 7. 保存したものを読み込みます。(すでに、data に、gdppcap.csv というのがあるときは、Step 5, Step 6 はスキップして、Step 7 だけを実行します。)

df_gdppcap <- read_csv("data/gdppcap.csv")
Rows: 16758 Columns: 15── Column specification ───────────────────────────────────────────────────────────────
Delimiter: ","
chr  (7): country, iso2c, iso3c, region, capital, income, lending
dbl  (6): year, gdp, pop, gdppcap, longitude, latitude
lgl  (1): status
date (1): lastupdated
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

Step 8. データの最初の6行(rows)をみてみます。

head(df_gdppcap)

Step 9. データの列(columns、変数 variables)はどのようなものがあるかを表示します。

str(df_gdppcap)
spc_tbl_ [16,758 × 15] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
 $ country    : chr [1:16758] "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
 $ iso2c      : chr [1:16758] "AF" "AF" "AF" "AF" ...
 $ iso3c      : chr [1:16758] "AFG" "AFG" "AFG" "AFG" ...
 $ year       : num [1:16758] 2014 1971 2006 2013 1995 ...
 $ status     : logi [1:16758] NA NA NA NA NA NA ...
 $ lastupdated: Date[1:16758], format: "2023-10-26" "2023-10-26" ...
 $ gdp        : num [1:16758] 7.02e+10 NA 3.48e+10 6.83e+10 NA ...
 $ pop        : num [1:16758] 32716210 11015857 25442944 31541209 16418912 ...
 $ gdppcap    : num [1:16758] 2144 NA 1367 2165 NA ...
 $ region     : chr [1:16758] "South Asia" "South Asia" "South Asia" "South Asia" ...
 $ capital    : chr [1:16758] "Kabul" "Kabul" "Kabul" "Kabul" ...
 $ longitude  : num [1:16758] 69.2 69.2 69.2 69.2 69.2 ...
 $ latitude   : num [1:16758] 34.5 34.5 34.5 34.5 34.5 ...
 $ income     : chr [1:16758] "Low income" "Low income" "Low income" "Low income" ...
 $ lending    : chr [1:16758] "IDA" "IDA" "IDA" "IDA" ...
 - attr(*, "spec")=
  .. cols(
  ..   country = col_character(),
  ..   iso2c = col_character(),
  ..   iso3c = col_character(),
  ..   year = col_double(),
  ..   status = col_logical(),
  ..   lastupdated = col_date(format = ""),
  ..   gdp = col_double(),
  ..   pop = col_double(),
  ..   gdppcap = col_double(),
  ..   region = col_character(),
  ..   capital = col_character(),
  ..   longitude = col_double(),
  ..   latitude = col_double(),
  ..   income = col_character(),
  ..   lending = col_character()
  .. )
 - attr(*, "problems")=<externalptr> 

Step 10. (ちょっと高度ですが)region, income, lending には、どのようなものがあるか、みてみます。

df_gdppcap |> select(region, income, lending) |> lapply(unique)
$region
[1] "South Asia"                 "Aggregates"                
[3] "Europe & Central Asia"      "Middle East & North Africa"
[5] "East Asia & Pacific"        "Sub-Saharan Africa"        
[7] "Latin America & Caribbean"  "North America"             
[9] NA                          

$income
[1] "Low income"          "Aggregates"          "Upper middle income"
[4] "Lower middle income" "High income"         NA                   
[7] "Not classified"     

$lending
[1] "IDA"            "Aggregates"     "IBRD"           "Not classified"
[5] "Blend"          NA              

Step 11. 世界の GDP の推移(経年変化)を見てみます。

COUNTRY <- "World"
df_gdppcap |> filter(country == COUNTRY) |> drop_na(gdppcap) |>
  ggplot(aes(year, gdp)) + geom_line()

Step 12. 世界の GDP per Capita の推移(経年変化)を見てみます。

COUNTRY <- "World"
df_gdppcap |> filter(country == COUNTRY) |> drop_na(gdppcap) |>
  ggplot(aes(year, gdppcap)) + geom_line()

Step 13. 人口の推移(経年変化)もみてみましょう。

COUNTRY <- "World"
df_gdppcap |> filter(country == COUNTRY) |>
  ggplot(aes(year, pop)) + geom_line()

Step 14. 2022年の、GDP の多い国から順に並べてみましょう。

arrange(desc(gdp)) とすると、大きい順, arrange(gdp) とすると小さい順に並びます。

df_gdppcap |> filter(year == 2022, region != "Aggregates") |> 
  drop_na(gdp) |> arrange(desc(gdp))

Step 15. 2022年の、GDP per Capita の多い国から順に並べてみましょう。

df_gdppcap |> filter(year == 2022, region != "Aggregates") |> 
  drop_na(gdppcap) |> arrange(desc(gdppcap))

Step 16. 2022年の、Population(人口) の多い国から順に並べてみましょう。

df_gdppcap |> filter(year == 2022, region != "Aggregates") |> 
  drop_na(pop) |> arrange(desc(pop))

Step 17. 2022年の、GDP と Population(人口) の関係性を、散布図(Scatter Plot)で見てみましょう。

df_gdppcap2 |> filter(year == 2022, region !="Aggregates") |> 
  drop_na(gdp, pop) |> 
  ggplot(aes(pop, gdp)) + geom_point()

Step 18. 左横に固まっていましたから、対数表示にしてみます。

df_gdppcap2 |> filter(year == 2022, region !="Aggregates") |> 
  drop_na(gdp, pop) |> 
  ggplot(aes(pop, gdp)) + geom_point() + 
  scale_x_log10() + scale_y_log10()

Step 19. 直線的に増加しているように、見えますから、近似直線(回帰直線といいます)を描いてみます。

df_gdppcap2 |> filter(year == 2022, region !="Aggregates") |> 
  drop_na(gdp, pop) |> 
  ggplot(aes(pop, gdp)) + geom_point() + 
  geom_smooth(method = "lm", formula = 'y ~ x', se = FALSE) +
  scale_x_log10() + scale_y_log10()

Step 20. 直線の方程式(Coefficients)や、どのぐらい、当てはまっているか(Residual R-squared)もみることができます。

df_gdppcap2 |> filter(year == 2022, region !="Aggregates") |> 
  drop_na(gdp, pop) |> lm(log10(gdp) ~ log10(pop), data = _) |> summary()

Call:
lm(formula = log10(gdp) ~ log10(pop), data = drop_na(filter(df_gdppcap2, 
    year == 2022, region != "Aggregates"), gdp, pop))

Residuals:
     Min       1Q   Median       3Q      Max 
-1.22646 -0.39512  0.03996  0.42553  0.95842 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  4.45320    0.27485   16.20   <2e-16 ***
log10(pop)   0.94704    0.03998   23.69   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.5117 on 181 degrees of freedom
Multiple R-squared:  0.7561,    Adjusted R-squared:  0.7548 
F-statistic: 561.2 on 1 and 181 DF,  p-value: < 2.2e-16

Step 21. 地域や、収入レベルも色や、形で表示することが可能です。

df_gdppcap2 |> filter(year == 2020, region !="Aggregates") |> 
  drop_na(gdp, pop) |> 
  ggplot(aes(pop, gdp, color = region, shape = income)) + geom_point() + 
  scale_x_log10() + scale_y_log10()

Step 22. これは、一人当たりの GDP を地域と、人口の情報も入れて表示したものです。

df_gdppcap2 |> filter(year == 2020, region !="Aggregates") |> 
  drop_na(gdp, gdppcap, pop) |> 
  ggplot(aes(gdppcap, gdp, color = region, size = pop)) + geom_point() + 
  scale_x_log10() + scale_y_log10()

Step 23. 他のパッケージを使うと、対話型のグラフを作成することも可能です。

install.packages("plotly")
trying URL 'https://cran.ism.ac.jp/bin/macosx/big-sur-arm64/contrib/4.3/plotly_4.10.3.tgz'
Content type 'application/x-gzip' length 3199222 bytes (3.1 MB)
==================================================
downloaded 3.1 MB

The downloaded binary packages are in
    /var/folders/mc/15j2lx113vscs17fxhz_p7400000gn/T//RtmpVDrgz9/downloaded_packages

Step 23. これは、一人当たりの GDP を地域と、人口の情報も入れて表示したものです。

library(plotly)
test <- df_gdppcap2 |> filter(year == 2020, region !="Aggregates") |> drop_na(gdp, pop) |> 
  ggplot(aes(color = country, shape = region, pop, gdp)) + geom_point() + 
  scale_x_log10() + scale_y_log10() + theme(legend.position = "none")
test |> ggplotly()
Warning: The shape palette can deal with a maximum of 6 discrete values because more
than 6 becomes difficult to discriminate; you have 7. Consider specifying
shapes manually if you must have them.

Step 24. 一人当たりのGDP の2022年の分布をみてみましょう。

df_gdppcap |> filter(year == 2022, region != "Aggregates") |> drop_na(gdppcap) |> 
  ggplot(aes(gdppcap)) + geom_histogram(binwidth = 10000)

Step 25. 対数表示にするとどうなるでううか。

df_gdppcap |> filter(year == 2022, region != "Aggregates") |> drop_na(gdppcap) |> 
  ggplot(aes(gdppcap)) + geom_histogram(bins = 10) + scale_x_log10()

Step 26. 箱ひげ図で見てみましょう。

df_gdppcap2 |> filter(year == 2020) |> drop_na(gdppcap) |> 
  filter(income != "Aggregates") |> 
  ggplot(aes(gdppcap, factor(income, levels = c("High income", "Upper middle income", "Lower middle income", "Low income")), fill = income)) + geom_boxplot() + scale_x_log10() +
  labs(y = "") +
  theme(legend.position = "none")

---
title: "極度に貧しい！？"
date: "`r Sys.Date()`"
output:
  html_notebook:
    df_print: paged
#    number_sections: yes
#    toc: yes
#    toc_float: yes
---

> UNICEF [[Link](https://www.unicef.or.jp/kodomo/sdgs/17goals/1-poverty/)]
>
> 1.  世界では、六人に一人（3億5600万人）の子どもたちが「極度にまずしい」暮らしをしています。

どのようなデータから、このようなことがわかるのでしょうか。まずは、極度の貧困とは、どのように定義しているのでしょうか。

#### Fact Sheet: An Adjustment to Global Poverty Lines [[Link](https://www.worldbank.org/en/news/factsheet/2022/05/02/fact-sheet-an-adjustment-to-global-poverty-lines)]

The World Bank updated the global poverty lines in September 2022. The decision, announced in May, follows the release in 2020 of new purchasing power parities (PPPs)---the main data used to convert different currencies into a common, comparable unit and account for price differences across countries. The new extreme poverty line of \$2.15 per person per day, which replaces the \$1.90 poverty line, is based on 2017 PPPs. Here you find more information about this change and what it means for measuring global poverty.

世界銀行は2022年9月に世界の貧困ラインを更新した。5月に発表されたこの決定は、2020年に新購買力平価（PPP）が発表されたことを受けてのものである。新購買力平価（PPP）とは、さまざまな通貨を共通の比較可能な単位に変換し、貧困の範囲を説明するために使用される主要なデータである。国ごとの価格差。1.90ドルの貧困線に代わる、1人当たり1日当たり2.15ドルという新たな極度の貧困線は、2017年のPPPに基づいている。ここでは、この変化とそれが世界の貧困の測定に何を意味するかに関する詳細情報をご覧いただけます。

そこで、この購買力平価（PPP: purchasing power parities）をまずは、調べてみましょう。国や、地域ごとの、GDP, PPP と言われるものと、それを、人口で割った、一人当たりの、GDP PPP と言われるものです。2017年を基準として、インフレ率を調整してあります。GDP は国内総生産（Gross Domestic Prodoct）の略で、何種類か計算方法がありますが、基本的な経済指標で、ドル換算されています。

-   GDP, PPP (constant 2017 international \$): NY.GDP.MKTP.PP.KD
-   GDP per capita, PPP (constant 2017 international \$): NY.GDP.PCAP.PP.KD

GDP, PPP (constant 2017 international \$) とか、GDP per capita, PPP (constant 2017 international \$) を、指標名（Indicator Name）といい、NY.GDP.MKTP.PP.KD とか、NY.GDP.PCAP.PP.KD を、指標コード（Indicator Code）と言います。後者を、WDI（世界開発指標、World Development Indicator）と呼ぶこともあります。

### 準備

Step 1. （R に機能を付け加える）パッケージのインストール（最初だけ）

```{r eval = FALSE}
install.packages("tidyverse")
install.packages("WDI")
```

Step 2. パッケージを使えるように読み込みます。

```{r}
library(tidyverse)
library(WDI)
```

Step 3. データを保存するための data という名前のディレクトリ（フォルダー）を作成します。（最初だけ）

```{r create-dirs}
dir.create("data")
```

Step 4. エラーが生じた時に、調べやすいので、'システム言語（System Language）' を英語にしておきます。（最初だけ）

```{r eval = FALSE}
Sys.setenv(LANG = "en")
```

Step 5. データを読み込みます。WDI パッケージをつかうと、簡単に、データを読み込むことができます。わかりやすい名前（gdp、gdppcap）をつけ、人口（pop）も読み込んでおきます。extra = TRUE としておくと、使い情報を一緒に読み込むことができます。（すでに、data に、gdppcap.csv というのがあるときは、Step 5, Step 6 はスキップして、Step 7 だけを実行します。）

```{r cache = TRUE, eval = FALSE}
df_gdppcap <- WDI(indicator = c(gdp = "NY.GDP.MKTP.PP.KD", pop = "SP.POP.TOTL", gdppcap = "NY.GDP.PCAP.PP.KD"), extra = TRUE)
```

Step 6. 何度も読み込むのは、時間もかかりますから、最初に作った、data という、ディレクトリー（フォルダ）に保存しておきます。（すでに、data に、gdppcap.csv というのがあるときは、Step 5, Step 6 はスキップして、Step 7 だけを実行します。）

```{r eval = FALSE}
write_csv(df_gdppcap, "data/gdppcap.csv")
```

Step 7. 保存したものを読み込みます。（すでに、data に、gdppcap.csv というのがあるときは、Step 5, Step 6 はスキップして、Step 7 だけを実行します。）

```{r}
df_gdppcap <- read_csv("data/gdppcap.csv")
```

Step 8. データの最初の６行（rows）をみてみます。

```{r}
head(df_gdppcap)
```

Step 9. データの列（columns、変数　variables）はどのようなものがあるかを表示します。

```{r}
str(df_gdppcap)
```

Step 10. （ちょっと高度ですが）region, income, lending には、どのようなものがあるか、みてみます。

```{r}
df_gdppcap |> select(region, income, lending) |> lapply(unique)
```

Step 11. 世界の　GDP の推移（経年変化）を見てみます。

```{r}
COUNTRY <- "World"
df_gdppcap |> filter(country == COUNTRY) |> drop_na(gdppcap) |>
  ggplot(aes(year, gdp)) + geom_line()
```

Step 12. 世界の　GDP per Capita の推移（経年変化）を見てみます。

```{r}
COUNTRY <- "World"
df_gdppcap |> filter(country == COUNTRY) |> drop_na(gdppcap) |>
  ggplot(aes(year, gdppcap)) + geom_line()
```

Step 13. 人口の推移（経年変化）もみてみましょう。

```{r}
COUNTRY <- "World"
df_gdppcap |> filter(country == COUNTRY) |>
  ggplot(aes(year, pop)) + geom_line()
```

Step 14. 2022年の、GDP の多い国から順に並べてみましょう。

`arrange(desc(gdp))` とすると、大きい順`,` `arrange(gdp)` とすると小さい順に並びます。

```{r}
df_gdppcap |> filter(year == 2022, region != "Aggregates") |> 
  drop_na(gdp) |> arrange(desc(gdp))
```

Step 15. 2022年の、GDP per Capita の多い国から順に並べてみましょう。

```{r eval = FALSE}
df_gdppcap |> filter(year == 2022, region != "Aggregates") |> 
  drop_na(gdppcap) |> arrange(desc(gdppcap))
```

Step 16. 2022年の、Population（人口） の多い国から順に並べてみましょう。

```{r}
df_gdppcap |> filter(year == 2022, region != "Aggregates") |> 
  drop_na(pop) |> arrange(desc(pop))
```

Step 17. 2022年の、GDP と Population（人口） の関係性を、散布図（Scatter Plot）で見てみましょう。

```{r}
df_gdppcap2 |> filter(year == 2022, region !="Aggregates") |> 
  drop_na(gdp, pop) |> 
  ggplot(aes(pop, gdp)) + geom_point()
```

Step 18. 左横に固まっていましたから、対数表示にしてみます。

```{r}
df_gdppcap2 |> filter(year == 2022, region !="Aggregates") |> 
  drop_na(gdp, pop) |> 
  ggplot(aes(pop, gdp)) + geom_point() + 
  scale_x_log10() + scale_y_log10()
```

Step 19. 直線的に増加しているように、見えますから、近似直線（回帰直線といいます）を描いてみます。

```{r}
df_gdppcap2 |> filter(year == 2022, region !="Aggregates") |> 
  drop_na(gdp, pop) |> 
  ggplot(aes(pop, gdp)) + geom_point() + 
  geom_smooth(method = "lm", formula = 'y ~ x', se = FALSE) +
  scale_x_log10() + scale_y_log10()
```

Step 20. 直線の方程式（Coefficients）や、どのぐらい、当てはまっているか（Residual R-squared）もみることができます。

```{r}
df_gdppcap2 |> filter(year == 2022, region !="Aggregates") |> 
  drop_na(gdp, pop) |> lm(log10(gdp) ~ log10(pop), data = _) |> summary()
```

Step 21. 地域や、収入レベルも色や、形で表示することが可能です。

```{r}
df_gdppcap2 |> filter(year == 2020, region !="Aggregates") |> 
  drop_na(gdp, pop) |> 
  ggplot(aes(pop, gdp, color = region, shape = income)) + geom_point() + 
  scale_x_log10() + scale_y_log10()
```

Step 22. これは、一人当たりの GDP を地域と、人口の情報も入れて表示したものです。

```{r}
df_gdppcap2 |> filter(year == 2020, region !="Aggregates") |> 
  drop_na(gdp, gdppcap, pop) |> 
  ggplot(aes(gdppcap, gdp, color = region, size = pop)) + geom_point() + 
  scale_x_log10() + scale_y_log10()
```

Step 23. 他のパッケージを使うと、対話型のグラフを作成することも可能です。

```{r}
install.packages("plotly")
```

Step 23. これは、一人当たりの GDP を地域と、人口の情報も入れて表示したものです。

```{r}
library(plotly)
test <- df_gdppcap2 |> filter(year == 2020, region !="Aggregates") |> drop_na(gdp, pop) |> 
  ggplot(aes(color = country, shape = region, pop, gdp)) + geom_point() + 
  scale_x_log10() + scale_y_log10() + theme(legend.position = "none")
test |> ggplotly()
```

Step 24. 一人当たりのGDP の2022年の分布をみてみましょう。

```{r}
df_gdppcap |> filter(year == 2022, region != "Aggregates") |> drop_na(gdppcap) |> 
  ggplot(aes(gdppcap)) + geom_histogram(binwidth = 10000)
```

Step 25. 対数表示にするとどうなるでううか。

```{r}
df_gdppcap |> filter(year == 2022, region != "Aggregates") |> drop_na(gdppcap) |> 
  ggplot(aes(gdppcap)) + geom_histogram(bins = 10) + scale_x_log10()
```

Step 26. 箱ひげ図で見てみましょう。

```{r}
df_gdppcap2 |> filter(year == 2020) |> drop_na(gdppcap) |> 
  filter(income != "Aggregates") |> 
  ggplot(aes(gdppcap, factor(income, levels = c("High income", "Upper middle income", "Lower middle income", "Low income")), fill = income)) + geom_boxplot() + scale_x_log10() +
  labs(y = "") +
  theme(legend.position = "none")
```
